“La science ouverte consiste à rendre accessible autant que possible et fermé autant que nécessaire” (cnrs, n.d.). Ce document R + Markdown cherche à illustrer comment le projet d’ANR ‘ITINERIS’ (coord. Veronica Cicolani) entend gérer les données issues de sa recherche dans un contexte d’ouverture et de référencement de l’information scientifique (Science Ouverte), notamment en utilisant les services d Huma-Num, les iso-standards liés aux axes de recherche, et les aspects du web interactif
La grille de services de l’infrastructure Huma-Num
| service | logo |
|---|---|
| Signaler |
|
| Traiter |
|
| Exposer |
|
| Archiver |
|
| Stocker |
|
Le plan de gestion des données (PGD) suivra les recommandations européennes H2020 pour la science ouverte et pilotera la gestion ouverte des données de recherche. Le projet prévoit de publier des documents de travail (working papers), des documents de données (data papers) et des jeux de données (datasets) sur des plateformes en libre accès (par exemple OpenEdition). Ces documents et jeux de données seront associés à des identifiants d’objets numériques (digital object identifiers, DOI) afin de garantir leur FAIRisation et seront référencés sur le site web de l’ANR (A quel WP ou task révient le website ?).
La cohérence de la gestion des données scientifiques sera assurée par un développement intégré dans le conteneur d’application logicielles GitLab d’Huma-Num
Dans le contexte de cette présentation les données sont herbergées sur l’ entrepôt de données (i.e., data warehouse, repository) GitHub accessible sur internet:
Description des Work packages (WP), task (T.) et des acteurs institutionnels
Partant d’une étude archéométrique des objets avec leur analyse physico-chimique et de surface (WP1, WP2), puis la remise de ces objets dans leur contexte historico-culturel de production, de circulation et d’utilisation (WP3)
Ce programme de travail porte sur l’étude des états de surface et les analyses physico-chimiques
L’analyse de surface passera par une analyse macro- et micro-optique. Les données des études des états de surface seront renseignés selon les standards suivants:
| ISO | description |
|---|---|
| 1302:2002 | Production d’une documentation technique |
| 3274:1996 | Caractéristiques nominales des instruments à contact (palpeur) |
| 4287:1997 | Terminologie, description et paramètres |
| 4288:1996 | Règles et procédures de mesures |
| 5436-1:2000 | Étalonnage matériel et logiciel |
| 5436-2:2012 | |
| 12085:1996 | Étalonnage motifs |
| 13565-1:1996 | Étalonnage des ICs, surfaces ayant des propriétés fonctionnelles différentes suivant les niveaux |
| 13565-2:1996 | |
| 13565-3:1998 |
Les analyses physico-chimiques permettront de caractériser les alliages cuivreux
| ISO | description |
|---|---|
| ISO/TC 26 | Cuivre et alliages de cuivre |
| 17034:2016 | Analyses isotopiques |
| 10810:2019 | Spectroscopie Raman |
| Spectroscopie des rayon X |
| ISO | description |
|---|---|
| 14739-1:2014l | Gestion de la documentation 3D (Lasergrammétrie, RTI) |
La base de données web (T.5A) sera hébergée sur la grille du TGIR Huma-Num – l’instance française de la Digital Research Infrastructure for the Arts and Humanities (DARIAH-EU) – et librement accessible en ligne. La TGIR Huma-Num héberge déjà de nombreux projets numériques développés par le laboratoire AOROC. Cette structure de données va permettre l’implémentation d’une saisie mult-utilisateurs, la pérennité du stockage et faciliter l’interfaçage avec des données de recherche déjà implémentées par la coordinatrice du projet (VC), le gazetteer Archeolocalis, la base de données BaseFer.
Pour faciliter l’intéropérabilité des données, les données et leur métadonnées seront retranscrites à la volée par des routines informatiques écrites sous R:
| description | format |
|---|---|
| Représenter/publier les données | JSON-LD |
| RDF | |
| Décrire les données à partir de vocabulaires | XML-TEI |
| Historique des données | VoID |
| DCAT | |
| PROV-O | |
| Recherche de données | SPARQL |
Au sein de l’équipe, les documents de travail (working papers) seront échangés sur le ShareDocs d’Human-Num
Basée sur l’ouverture de données (open data) décrites sémantiquement et des métadonnées (metadata), l’Open Science repose sur les principes du FAIR
| Facile à trouver |
| Accessible |
| Interopérable |
| Réutilisable |
Repose sur l’attribution d’identifiants uniques (DOI) et un système standardisé de citations, comme les boutons “Citer” ou les liens qui affichent des les principaux formats de références biblographiques (.bib, .tex, etc.). Comme pour citer la page web Golasecca-net et l’article ayant servis à développer cette page:
L’ouverture des données (open data) est à la base de la Science Ouverte, ces données seront accompagnées de métadonnées et recevront une certification
Les données seront intégrées à d’autres. Elles doivent donc être exprimées dans des formats ouverts et internationaux. C’est par exemple le cas du format WKT qui est le format standard, human-readable, pour la représentation des données géographiques.
Pour les données historico-culturelles (sites archéologiques, contexte stratigraphiques, typologie des objets, etc.), lors de la conception de la base de données, nous chercherons à aligner les champs et les valeurs sur le Cultural Heritage Information-Conceptual Reference Model (CIDOC-CRM, ISO 21127. Le CIDOC-CRM est un iso-standard pour la description et l’organisation de l’information liée au patrimoine archéologique et architectural
La provenance, le nom du laboratoire, les méthodes et les équipements utilisés seront sourcés et sous license.
| licences | description |
|---|---|
| ODbL | bases de données ouvertes |
Les données ouvertes seront connectées au web sémantique (linked open data, LOD). Ces données décrites comme des triples structurés sous la forme: sujet-prédicat-objet, au format Resource Description Framework (RDF) et enregistrées selon la syntaxe JavaScript Object Notation for Linked Data (JSON-LD).
Par exemple pour le site d’Uto-Kulm (n° 247) durant la phase Golasecca IIAB-IIIA1:
site <- "Uto-Kulm"
per <- "GIIAB_IIIA1_530_450"
urlfile<-'https://raw.github.com/zoometh/golasecca/master/LOD/data/data_temp.csv'
df <- read.csv(urlfile)
df.select <- df[df[ , "Lieu_dit"] == site & df[ , per] > 0, ]
df.per.count <- df.select %>% count(Objet)
df.per.count$Site <- site
kable(df.per.count,"html",
row.names = F,
caption = "Nombre des différents types d'objets pour
le site d'Uto-Kulm au Golasecca IIAB-IIIA1") %>%
collapse_rows() %>%
kable_styling(full_width = FALSE,
position = "center",
font_size=12)| Objet | n | Site |
|---|---|---|
| Ceramique grecque | 2 | Uto-Kulm |
| Parure Golasecca | 1 |
Où:
Le langage de programmation R, offre différents packages (rdflib, jsonld, etc.) permettant de formater les données de l’étude sous la forme de LOD:
rdf <- rdf()
for (i in 1:nrow(df.per.count)){
rdf %>%
rdf_add(subject = paste0(base, df.per.count[i,"Site"]),
predicate = paste0(base, df.per.count[i,"Objet"]),
object = df.per.count[i,"n"])
}
rdf## Total of 2 triples, stored in hashes
## -------------------------------
## <https://github.com/zoometh/golasecca/tree/main/Uto-Kulm> <https://github.com/zoometh/golasecca/tree/main/Ceramique grecque> "2"^^<http://www.w3.org/2001/XMLSchema#integer> .
## <https://github.com/zoometh/golasecca/tree/main/Uto-Kulm> <https://github.com/zoometh/golasecca/tree/main/Parure Golasecca> "1"^^<http://www.w3.org/2001/XMLSchema#integer> .
Le triple peut être sérialisé sous le format JSON-LD, actuellement le plus populaire pour décrire des données web et qui sera bientôt intégré par Google.
json.name <- paste0(getwd(), site, "_", per,".json")
rdf_serialize(rdf, json.name, "jsonld") Ce fichier peut ensuite être déposé sur GitHub :
Les données de la modélisation mathématique et spatiale seront mises aux formats conventionnellement utilisés dans ces domaines.
| ISO | description |
|---|---|
| 80000-2:2019 | Modélisation mathématique |
| 19115:2003 | Information géographique |
Pour la représentation des ensembles structurés, l’analyse de réseaux (network analysis) est un formalisme largement utilisé, en même temps qu’une heuristique visuelle (graph drawing). Les données utilisées dans l’analyse de réseaux sont basiquement des noeuds (vertices) et des liens (edges). Dans le projet ITINERIS, cette modélisation elle sera employée à différentes échelle et selon différents paradigmes. Nous nous en étions servis pour modéliser les réseaux d’échanges du Golassecca (Cicolani and Huet 2019):
En Italie du Nord, la territorialisation qui débute à l’âge du Bronze se renforce au cours de l’âge du Fer. Cette territorialisation renforce le processus d’ethnicisation entendu comme le produit de ‘l’organisation sociale de la différence culturelle’ (Barth 1969). C’est ce processus que le projet ‘ITINERIS’ entend documenter à travers une étude des sous-systèmes techniques (chaîne opératoire, matières premières), culturels (notion de style (Sackett 1989, 1977)) et spatiaux.
Les ‘sites princiers’ forment des central places autour desquelles s’organisent les réseaux d’échanges à longue distance. Ces sites majeurs ont une distribution spatiale régulière, ce qui témoigne du renforcement de la territorialisation au cours de l’âge du Fer. qu’il est possible de modéliser avec des polygones de Thiessen (fonction deldir et de lignes qui connectent ces sites quand les territoires théoriques sont contigüs (fonction gTouches)
Polygones de Thiessen (i.e. cellules de Voronoi) des ‘sites princiers’ (source) de la fin du Premier Âge du Fer dans le nord de l’aire d’étude (domaine nord alpin) d’après: Fernández-Götz and Krausse (2013), Brun and Chaume (2013), modifié
Les connections de proche en proche entre ces sites centraux, peuvent être mise sous la forme de graphes et de réseaux de transports. Comme par exemple en calculant entre chacun de ces sites, les plus courts chemins théoriques
Plus courts chemins théoriques entre les ‘sites princiers’ (source) de la fin du Premier Âge du Fer dans le nord de l’aire d’étude (domaine nord alpin) d’après: Fernández-Götz and Krausse (2013), Brun and Chaume (2013), modifié